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基于 变 分 自 编码 器 的 生成 式 文本 摘要 研究 


HEE, Æ 
(南京 审计 大 学 信息 工程 学 院 , dx 211815) 


摘 要 : 从 单 文档 中 生成 简短 精炼 的 摘要 文本 可 有 效 缓解 信息 爆炸 给 人 们 带 来 的 阅读 压力 。 近 年 来 ， 序 列 到 序列 
(sequence-to-sequence，Seq2Seq) 模 型 在 各 文本 生成 任务 中 广泛 应 用 ， 其 中 结合 注意 力 机 制 的 Seq2Seq 模型 已 成 为 生 
成 式 文本 摘要 的 基本 框架 。 然 而 ， 与 机 器 翻译 等 任务 不 同 ， 摘 要 文本 还 包含 特定 的 写作 风格 特征 。 为 生成 能 体现 这 
种 特征 的 摘要 ， 在 基于 注意 力 和 履 盖 率 机 制 的 Seq2Sedq 模型 基础 上 ， 在 解码 阶段 利用 变 分 自 编码 器 (variational auto- 
encoder，VAE) 刻 画 摘 要 风格 特征 并 用 于 指导 摘要 文本 生成 ; 最 后 ,利用 指针 生成 网 络 来 缓解 模型 中 可 能 出 现 的 未 登 
录 词 问题 。 基 于 新 浪 微 博 LCSTS 数据 集 的 实验 结果 表明 ， 提 出 的 方法 能 有 效 刻画 摘要 风格 特征 、 缓 解 未 登录 词 及 重 
复生 成 问题 ， 使 得 生成 的 摘要 准确 性 高 于 基准 模型 。 

关键 词 : 文本 摘要 ; 变 分 自 编码 器 ; Seq2Seq 模型 ; 履 盖 率 机 制 ; 指针 生成 网 络 
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Vaebased abstractive text summarization 


c Huang Jiajiaf, Li Pengwei 
(School of Information Engineering, Nanjing Audit University, Nanjing 211815, China) 


Abstract: Generate a BRIEF and short summary for a document can effectively alleviate the reading pressure brought by 
information explosion. in recent years, sequence-to-sequence (seq2seq) model has been widely applied in various text 
generation tasks. especially, seq2seq attentional model has become a basic framework for abstractive text summarization task. 
however, different to other text generation task, such AS machine translation, summary text usually implies latent feature of 
writing style. to make the generated summary reflect the feature, this paper propose a novel framework, which employs 
seq2seq attentional model equipped with coverage mechanism AS basic model, and uses variational auto-encoder (vae) to 
depict the latent feature in decoding process. AT last, the summary tokens are generated successively via a pointer-generator 
network for relieving the out-of-vocabulary (OOV) problem. experimental results on the lcsts dataset demonstrate that the 
proposed framework is able to capture the latent feature of summary text and relief the OOV and tokens repetition problem, 
thus generating more accurate and readable summary. 


Key words: text summarization; variational auto-encoder; Seq2Seq model; coverage mechanism; pointer-generator network 


0 ”引言 of-vocabulary，OOV) 情 况 ， 使 其 应 用 效果 不 够 理想 。 为 此 ， 
j AE X SE GE E YE XR R XE Dfii T J8 Er E EX g US 51 

p 随 着 互联 网 信息 的 爆发 式 增 长 ， 人 们 每 天 接触 到 海量 信 (pointer-generator network) Af OOV 问题 ， 从 而 产生 更 加 

息 ， 包 括 新 闻 、 用 户 自 媒体 内 容 、 聊 天 文本 等 。 单 文档 自动 自然 流畅 的 摘要 句子 。 

文本 摘要 则 在 从 较 长 文本 (如 新 闻 、 微 博 等 ) 中 提取 出 重要 信 结合 注意 力 机 制 的 Seq2Seq 模型 已 成 为 单 文档 生成 式 摘 

息 并 以 简短 的 句子 表达 之 ， 以 缓解 信息 过 载 所 造成 的 阅读 压 要 的 基准 方法 。 然 而 ， 相 比 于 机 器 翻译 等 灵活 多 变 的 序列 转 

力 。 然 而 ， 如 何 从 文本 中 识别 出 重要 信息 ， 以 及 如 何 组 织 文 换 任务 ， 自 动 摘 要 任务 一 般 针 对 事件 文本 ， 因 而 往往 具有 洪 

字 以 表达 这 些 重 要 信息 是 自动 摘要 所 关注 的 两 个 基本 问题 。 在 的 写作 风格 特征 ， 如 “A 在 XX 时 间 做 了 B 事情 ”“C 地 点 

目前 ， 文 本 自动 摘要 主要 有 抽取 式 摘 要 和 生成 式 摘要 两 种 六 发 生 了 B 事情 ”等 (如 例 1 所 示 )。 

式 。 其 中 ， 抽 取 式 摘要 则 在 从 原始 文本 中 找 出 若干 个 


JH 
重要 名 例 1 具有 结构 特征 的 摘要 文本 示例 

子 并 作为 摘要 输出 ， 一 般 用 在 长 文本 中 ; 而 生成 式 摘要 则 在 原始 文本 : 今天 下 午 ， 北 京 市 .. 不 再 新 建 经 济 适用 住房 。 
基于 原始 文本 的 语义 信息 自动 生成 语义 连贯 的 简短 句子 。 相 摘要 : 4000 元 经 适 房 今年 退出 北京 历史 
比 于 抽取 式 摘要 ,生成 式 摘 要 更 加 符合 人 类 的 语言 认 知 习惯 ， 原始 文本 : 雅虎 发 布 2014 年 .. 至 51.45 美元 。 
但 如 何 使 得 生成 的 摘要 文本 尽 可 能 涵盖 原文 核心 信息 且 流 畅 摘要 : 雅虎 宣布 剥离 阿里 巴巴 股份 
自然 是 目前 面临 的 主要 挑战 。 原始 文本 : 有 着 “全 国 最 大 包工 头 ” 称 呼 L2 严 介 说 。 

当前 ， 生 成 式 摘 要 主要 采用 包含 注意 力 机 制品 (attention 摘要 : 最 大 包工 头 严 介 和 讨 薪 ; 状 告 地 方 政府 拖欠 工程 款 
mechanism) 的 序列 到 序列 (sequence-to-sequence，Seq2Seq) 模 原始 文本 : 截至 10 月 28 日 . 楼 市 去 库存 速度 明显 提升 。 
HIRKA. 而 添加 履 盖 率 机 制 纪 (coverage mechanism) 使 得 模 摘要 : 91 家 房 企 前 三 季度 存货 近 万 亿 元 
型 能 够 记录 历史 注意 力 分 配 ， 进 而 缓解 摘要 文本 部 分 片段 的 为 此 ，Li 等 人 [在 注意 力 模型 外 基础 上 提出 一 种 考虑 洪 
重复 生成 问题 。 此 外 ， 由 于 模型 在 使 用 时 存在 未 登录 词 (out- ”在 结构 信息 的 文本 摘要 生成 模型 DRGD (deep recurrent 
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generative decoder)。 该 模型 在 解码 阶段 使 用 变 分 自 编码 器 
(variational auto-encoder, VAE) 刻 画 文本 摘要 的 结构 特征 
甫 助 生 成 摘要 文本 。 然 而 该 模型 并 未 考虑 自动 摘要 任务 中 的 


OOV 和 部 分 信息 重复 生成 问题 , 产生 的 摘要 质量 有 待 进一步 
提高 。 因 此 ， 本 文 提 出 一 种 融合 履 盖 率 机 制 、 指 针 生 成 网 络 


与 摘要 潜在 风格 特征 的 摘要 生成 模型 VAESum (VAE-based 
summarization generator)。 具 体 而 言 ， 本 文 主要 贡献 如 下 : 

a) 本 文 在 覆盖 率 模型 外 基础 上 引入 VAE 网 络 刻画 摘要 
文本 的 潜在 风格 特征 ， 使 得 模型 在 解码 阶段 不 仅 考 虑 编码 的 
隐藏 层 特征 和 拷贝 原始 文本 的 概率 ， 还 需要 考虑 摘要 所 包含 
的 潜在 风格 信息 ， 从 而 生成 更 高 质量 的 摘要 文本 。 
b) 本 文 基于 -新浪 微 博 数据 集 LCSTSBI, 对 比分 析 了 潜在 
风格 特征 ET MN 摘要 结果 的 影 
响 。 实 验 结 果 表 明 ， 当 三 者 结合 时 产生 的 摘要 质量 最 佳 ， 并 
优 于 未 考虑 风格 特 4 iE 的 摘要 模型 。 


1 ”相关 工作 
然 语言 处 理 人 


随 着 深度 学 习 在 自 HRE GAE, ET 
循环 神经 网 络 (recurrent neural network, RNN)If] Seq2Seq 模 
型 握 已 成 为 生成 式 摘要 任务 的 基本 框架 ， 并 广泛 应 用 于 句子 
级 别 的 摘要 生成 任务 中 ,如 新 闻 标 题 生 成 ,摘要 句子 生成 等 。 
Seq2Seq 模型 以 原始 文本 的 字符 (或 词 ) 为 输入 特征 , 通过 编码 
网 络 (encoder) 转换 为 隐藏 层 向 量 并 传递 到 解码 网 络 
(decoder)， 最 终 解码 为 摘要 句子 。 在 Seq2Seq 模型 中 ， 为 使 
解码 网 络 更 专注 于 输入 文本 中 的 重要 特征 ， 往 往 采用 注意 力 
TjL rU 3 来 计算 原始 文本 中 每 个 特征 对 当前 解码 特征 的 贡献 
度 ， 以 期 生成 更 加 恰当 的 解码 特征 。 在 注意 力 模型 基础 上 ， 
Kikuchi 等 人 中 考虑 摘要 长 度 ， 从 而 生成 指定 长 度 的 摘要 。 
基于 注意 力 机 制 的 Seq2Seq 模型 存在 重复 生成 问题 ， 即 
生成 的 摘要 片段 可 能 存在 部 分 字符 重复 出 现 ， 这 是 因为 注意 
力 机 制 往 往 不 曾 关 注 其 历史 分 配 情况 。 为 此 ， 相 关 研 究 提 出 
解码 器 内 部 注意 力 U0(intra-decoder attention), 78 s 3E Li ^ 1 
或 时 序 注意 力 机 制 B(temporal attention) 等 以 缓解 重复 生成 问 
题 。 这 些 方法 均 考 虑 历史 时 刻 的 注意 力 分 配 使 得 当前 注意 力 
更 加 关注 之 前 未 被 关注 到 的 编码 信息 。 
与 机 器 翻译 任务 类 似 , 自动 摘要 任务 中 常 出 现 专 有 名 词 ， 
这 些 名 词 在 模型 训练 时 不 曾 出 现 ， 但 对 当前 文本 的 摘要 生成 
却 必 不 可 少 ， 进 而 导致 未 登录 词 (OOV) 的 现象 出 现 。 针 对 这 
一 问题 ，Gu 等 人 [在 注意 力 模 型 基础 上 提出 拷贝 网 络 
(CopyNet), 即 解码 网 络 的 输出 层 是 由 其 激活 层 计算 的 摘要 特 
征 生成 概率 和 该 特征 是 否 找 贝 自 原始 文本 的 概率 共同 构成 。 
拷贝 网 络 显著 提高 了 摘要 质量 ， 有 效 缓解 了 OOV 问题 。 在 
此 基础 上 提出 的 指针 生成 网 络 扩 习 进 一 步 考 虑 了 词汇 由 词 表 
产生 的 概率 ， 而 连续 拷贝 机 制 03 可 从 输入 文本 中 直接 复制 一 
个 人 名 或 机 构 名 等 文本 子 序列 。 在 拷贝 网 络 和 指针 生成 网 络 
模型 中 ， 在 解码 阶段 的 各 个 时 刻 ， 摘 要 字符 不 再 完全 由 解码 
网 络 独 立 生 成 ， 而 是 考虑 了 将 原始 文本 某 个 特征 直接 拷贝 到 
摘要 中 的 概率 。 
由 于 摘要 自动 生成 任务 的 输入 文本 往往 包含 较 多 字符 
(一 般 大 于 100 个 )， 而 产生 的 摘要 文本 相对 较 短 且 包 含 较为 
固定 的 写作 风格 。 为 能 够 刻画 摘要 中 所 包含 的 潜在 结构 信息 
( 即 摘要 风格 )，Li 等 人 中 在 基于 注意 力 的 Seq2Seq 模型 中 结 
合 VAE 网 络 将 结构 信息 刻画 出 来 并 融入 到 摘要 生成 过 程 中 。 
针对 新 闻 等 长 度 较 长 的 文本 ， 相 关 研 究 将 输入 文本 的 
题词 04、 主 题 向 量 0 等 融入 到 编码 器 中 以 更 加 准确 地 概括 
A 
本 文 针 对 文本 摘要 自动 生成 任务 面临 的 OOV 和 重复 生 
成 问题 ， 以 包含 注意 力 、 和 覆盖 率 机 制 以 及 指针 生成 网 络 的 
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2.1 


码 阶 段 ， 利 月 
的 分 布 pid) - Nziu.oiD, ， 其 中 u-h). 
神经 网 络 产生 ; 在 解码 阶段 ， 从 z 中 采 
构 出 原始 数据 4 。 

经 典 的 VAE 模型 并 未 应 | 
ll Li 等 人 [I 开始 将 i 
循环 生成 能 力 的 Seq2Seq 生 
务 。 本 文 借鉴 DGRDI 中 的 
循环 VAE 模型 作为 VAESum 模型 解码 网 络 的 一 部 分 。 但 与 
同 ， 本 文 不 仅 使 用 包含 注意 
而 且 在 此 基础 上 进一步 结合 指针 生成 网 络 和 


等 人 [6 也 
有 潜在 特征 
成 、 手 写字 识 另 


DGRD 不 
基准 生成 模型 ， 
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基于 注意 力 、 
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» 但 从 摘要 角度 
一 定 的 写作 风格 特征 
使 用 变 分 自 编码 器 (VAB) 刻 画 


Kingma 


向 量 刻 画 


出 一 种 新 的 摘要 生成 模型 VAESum。 
传统 VAE 结构 

等 人 中 提出 的 变 分 
数据 潜在 特 和 
有 神经 网 络 将 输入 数据 d 转换 为 潜在 特征 空 
=f,(d) 均 由 
并 利用 神经 网 络 重 


商 要 


GRU Jj 


ELS 
编码 器 的 输 
随后 ， 利 用 
生成 1 时 刻 的 第 一 隐藏 层 单元 : 


但 解码 器 的 第 
考虑 各 时 刻 的 角 
实际 上 ， 


IF] ER s; =s lS 。 


4 和 文本 摘要 等 任 


度 ， 摘 要 文本 由 于 其 简练 性 
。 为 此 ， 本 文 在 Seq2Seq 模型 基础 上 
文本 的 风格 特征 ， 


自 编码 器 是 一 利 
征 的 编码 -解码 网 络 。 在 VAE 模型 的 编 


本 的 写作 风格 特征 并 融入 到 摘要 循环 生成 过 程 中 。 
的 模型 在 尽 可 能 缓解 OOV 和 重复 生成 的 同时 ， 产 
符合 标准 结构 的 摘要 文本 。 


要 求 ， 
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本 文 提 出 
生 尽 可 能 


生成 网 络 的 Seq2Seq 模 
能 较 好 解决 摘要 文本 中 出 现 的 OOV 问题 以 及 重 
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力 机 制 的 Seq2Seq 作为 


履 盖 率 机 制 以 缓解 模型 的 OOV 和 重复 生成 问题 
2.2 提出 


向 量 形 


元 (gated recurrent unit) I] XX [8] fj 9 1 
IUE s; = GRU, S.) RI 5; = GRU (x; Si) , 


解码 器 网 络 包含 三 
率 机 制 的 网 络 (ACM network, attention and coverage mecha- 
nism based network); b) 基于 VAE 结构 的 网 络 (VAE network); c) 基 
于 指针 生成 网 络 的 输出 层 (pointer-generator network). 三 个 子 网 络 E 
底 向 上 ， 依 次 以 下 层 输 出 作为 上 层 输入 ， 
2.2.1 ACM 

ACM Network 使 用 


| 下 如 何 各 


t-1 


值得 注意 的 是 ， 在 模型 训练 时 ， 
符 作为 1 时 刻 的 输入 ; 而 当 模 型 用 于 预测 时 , 使 用 
测 出 的 字符 作为 :时刻 的 输入 。 
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HJA, EA 
史 分 布 情况 ， 以 缓解 重复 生成 和 只 关注 


和 ~ 


文本 ， 


个 时刻 只 关注 输 


只 选择 性 


i 入 文本 的 部 分 信息 ， 


且 在 FER 


部 分 的 关注 .Seq2Seq 模型 一 般 使 用 注意 力 机 制 中 使 
地 关注 输入 文本 的 部 分 信息 ; 
意 力 口 或 解码 器 内 部 注意 力 09 刻 画 注意 力 向 量 的 历 


坚 码 单元 是 否 需 要 关注 输入 文本 的 不 同 部 分 。 
在 摘要 生成 任务 中 ， 若 希望 能 够 生成 既 可 表达 输入 
文本 全 局 信息 且 重 复 字 符 较 少 的 摘要 


^n 


应 要 求解 码 器 每 
减少 对 该 


得 解码 器 


使 用 覆盖 率 机 


部 分 文本 的 问题 。 
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Vector 


/ 
一 六 一 一 一 一 一 一 一 一 局 一 一 一 一 一 一 


VAE 


Network 


Attention 
matrix 


Hidden 


Embedding 


ox 
o» 


ACM Network 


D 
E E ee te a i te i i, a nd i 


本 文 使 用 注意 力 机 制 和 禾 盖 率 机 制 共同 作用 在 解码 器 的 

ACM network. 隐藏 层 和 编码 器 的 隐藏 层 单元 上 。 对 于 ACM 
network 的 两 个 隐藏 层 及 和 如 来 说 ,依次 使 用 t1 时 刻 的 第 二 
隐藏 层 尼 ,来 计算 t 时 刻 的 第 一 隐藏 层 ， 即 e = GRUO, h) ， 
并 以 此 计算 如 。 
体 来 说 ， 首 先 置 0 不 
m=0。 那 么 在 计算 上 时 刻 注 
意 力 分 配 以 尽 可 能 降低 字符 
HÆ ce 计算 到 上 时 刻 为 止 ， 

dd s. mORUEISEMA 
输入 文本 的 注意 力 为 


于 
Nr 


的 注意 力 向 量 为 零 向 量 ， 即 
时 ,首先 考虑 历史 时 刻 的 注 
复生 成 。 为 此 ， 引 入 覆盖 率 
注意 力 的 累积 覆盖 情况 : 

" Q) 
i» MEIRE t 时 刻 对 第 i 个 


; 
m œ 


Bhd 


eH 
YE 


Il 
地 
e 


ei =v" tanh(W,s, + Wih +W,c, +b) (3) 
i exp(e') 
ai ——— 
yx 5 


结合 该 注意 力 以 及 编码 器 的 隐藏 层 * 可 获得 在 考虑 注意 

力 和 履 盖 率 情 况 下 解码 器 在 上 时 刻 应 该 关注 的 上 下 文 向 量 : 

C = 2 0 (5) 

这 样 ， 综 合 考虑 C 时 刻 的 输入 字符 向 量 vas 以 及 上 时 刻 

第 一 隐藏 层 妨 、 上 下 文 向 量 C, ， 可 获得 解码 器 在 上 时 刻 的 第 
二 隐藏 层 : 


h? = GRUCy, 1,h,C,) (6) 
2.2.20 VAE 网 络 
一 般 的 Seq2Seq 模型 较 少 考虑 摘要 文本 的 潜在 写作 风格 


特征 。 而 文献 [6] 的 实验 结果 表明 ,结合 VAE 网 络 的 Seq2Seq 
模型 将 摘要 的 潜在 风格 特征 考虑 进来 可 有 效 提升 摘要 质量 。 
鉴于 此 ， 本 文 在 包含 注意 力 和 覆盖 率 机 制 的 解码 器 模块 上 进 
一 步 融入 VAE 网 络 以 刻画 摘要 风格 特征 。 


VAE 网 络 以 ACM 网 络 的 第 二 隐藏 层 尼 为 输入 , 由 于 各 
时 刻 的 隐藏 层 之 间 包 含 上 下 文 语 义 联 系 ， 因 而 不 能 使 用 原始 


VAE 网 络 独立 地 为 每 时 刻 及 生成 下 一 层 节点 。 与 DGRDW7I 中 
的 循环 VAE 生成 过 程 类 似 , 给 定 ACM 网 络 1 时刻 输出 的 隐 
HUR e I t- 1 时 刻 的 输入 字符 向 量 va ,首先 生成 当前 网 络 的 
潜在 隐藏 层 : 


图 1 VAESum 网 络 结构 图 
Fig. 1 The vaesum network 
hi; =W; y + Wah? -Wzz, +b.) 
其 中 ，f 为 sigmoid 函数 ，z, 为 1 时 刻 的 潜在 特征 ， 该 特征 刻 
画 了 摘要 文本 的 风格 信息 。 

VAE 模型 假设 上 时刻 
且 每 个 隐藏 层 在 z 
pO; |z) ~ Nz:p.o?D) , Hr 


络 生 成 : 


时 刻 


文本 


DILE 


的 潜在 特征 z: 


zX-uto 06 


最 后 ， 根 据 潜在 特征 
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0) 


潜在 特征 满足 高 斯 先 验 z, ~ NOD , 


4 7W,h; +b, 
logo? =W, h; +b, 


e~N(0, I) 


上 的 后 验 分 布 也 满足 高 斯 分 布 
P 后 验 分 布 参数 和 和 logez? 由 神经 网 


(8) 
(9) 


Ed (reparameterization trick) 即 可 刻画 出 1 


(10) 


z 获得 VAE 网 络 的 输出 隐藏 层 : 


hè = tanh(W „z, + Wah? +bi;) 
该 隐藏 层 综合 考虑 了 摘要 文本 的 潜在 风格 特征 以 及 输入 


的 注意 力 信息 。 


2.2.3 pointer-generator 网 络 


型 预测 里 


虽然 对 VAE PL £g 4r H 
映射 为 字符 输出 层 单 元 即 可 和 


符 或 词汇 不 在 模型 和 
字符 或 词汇 。 因 此 ， 本 文采 用 指针 生成 网 络 来 决定 1 时 


相应 


字符 
刻 预 测 出 


的 字符 是 直接 从 词 表 


某 个 字符 。 
为 此 , 首先 将 影响 1 时 刻字 符 和 


包括 -l 时 刻 生成 的 字符 向 量 


h? 


符 从 词 


Proc QU) : 


a2 Ar 


字符 


的 字 


w 不 在 词 表 中 ， 那 么 Pew 为 0， 这 时 利 ) 
ENEIT w E t 
符 。 模 型 预测 


E RO Ee zs n f IH 


Q1) 


softmax 函数 直接 
成 摘要 ， 但 这 种 方式 未 考虑 模 
b 现 的 未 登录 词 问题 。 即 若 输 入 文本 对 中 的 某 个 字 
的 训练 词 表 中 ， 那 么 上 述 方式 将 无 法 生成 


Pgen = sigmoid(W,h, +b) 
Poe (W) = softmax(W, h, +b") 


这 样 ， 字 符 w 从 词 表 中 产生 的 最 终 概率 为 Pu OD Pao o 


FP 产 生还 是 复制 自 输入 文本 的 


E 成 的 相关 向 量 拼 接 起 来 ， 
& ya. VAE 网 络 的 输出 隐藏 层 
当前 时 刻 的 上 下 文 向 量 C,: hace c1. ABI 
表 中 产生 的 概率 De 以 及 每 个 字符 w 被 选中 的 概率 


(12) 
(13) 
若 


输入 文本 中 


刻 的 注意 力 w% 来 从 输入 文本 上 


出 每 个 字符 的 概率 为 


bP 复制 最 合适 
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POW) = Proe W) Peen + (1— Poo)2 p 2i 


根据 式 (14) 可 逐 字 符 生成 


(14) 


EXE, ZHE IEF 


止 字符 <EOS> 或 摘要 文本 达到 指定 最 大 长 度 时 停止 。 此 外 ， 


为 提高 模型 预测 效率 ， 本 文 使 
来 生成 最 佳 摘要 。 
2.3 ”模型 训练 


JRE RU (beam search) 方 式 


本 文 提出 


的 VAESum 文本 摘要 模型 是 在 基于 注意 力 和 脆 


盖 率 机 制 的 Seq2Seq 模型 基础 上 利 


1 VAE 网 络 刻画 摘要 文 


本 的 潜在 结构 并 融入 到 摘要 生成 任务 中 。 因 此 ， 为 训练 模型 


参数 , 首先 利 / 


1 之 TEM 
ls =-log 2 pO} 5. X) 
i 


JZ X fil cross-entrop p k Sg / MAS FE 73 T H 
SERI SE Y) ={Y,y… 史 在 每 一 时 刻 的 对 数 似 然 概率 : 


(15) 


其 次 , ASOCSE FL n EDU 


的 实验 结果 ， 


最 后 , VAE 
参数 的 训练 方式 如 


: 在 最 大 化 每 个 


来 度量 历史 注意 力 分 布 ( 即 履 
盖 率 向 量 ) 并 以 此 优化 当前 时 刻 的 注意 力 分 配 
将 履 盖 率 损失 函数 4 = 27, minat en 
数 中 可 有 效 降低 注意 力 对 某 个 文本 片段 的 重复 注意 问题 。 因 
此 ,本 文 在 模型 训练 时 也 将 该 损失 函数 作为 优化 函数 一 部 分 。 
网 络 是 一 个 无 监督 的 生成 -推断 网 络 。 其 模型 
要 每 一 时 刻 生成 概率 


。 根 据 文献 [4] 
添加 到 优化 函 


pOh) 的 同时 尽 可 能 使 得 从 文本 中 训练 出 的 后 验 概 率 


qazi | x5. zL) 逼近 其 到 
化 函数 的 最 终 表达 式 如 下 [5 161. 
by = E (4 PAE) {310g pr | Yeu. X) 
- Da la | ys,z4) pGOI] 


a 


E 论 变 分 概率 pG yii) o IURE, 其 对 应 优 


6) 


ET. 6 5 6 均 包 含 摘要 文本 生成 概率 的 对 数 似 然 优化 ， 


可 将 两 部 分 合并 。 这 样 ， 对 于 


LA N 个 文本 摘要 对 的 训练 数 


N 了 
(= > {og pl |y]. X)+AL, 
n=l t-l 


* Dalla | y4, z4) || PCO 


其 中 ，4 为 覆盖 率 损 失 的 调节 参数 。 
3 ”实验 
3.1 数据 集 


本 文 实验 采用 的 是 Hu 等 人 名 提供 的 新 浪 微 博 数据 集 


4m (GYl ， 本 文 提 出 的 VAESum 模型 的 整体 优化 函数 如 下 : 


(7) 


LSCST(large-scale chinese short text summarization dataset). 1% 


数据 集 以 微 博 短 文 及 其 摘要 作为 文本 -摘要 对 。 


整个 数据 集 分 


为 训练 、 验 证 和 测试 三 部 分 。 
验证 数 ] 
于 3 分 的 数据 。 最终, 各 部 分 分 别 包含 约 
个 文本 一 摘要 对 。 

3.2 实验 设置 与 对 比 模型 


为 更 有 效 地 评估 摘要 模型 ， 对 
居 和 测试 数据 进行 人 工 打 分 (1-5 分 ), 并 保留 分 数 不 低 
240 万 、8700 和 725 


预 处 理 时 以 文本 字符 流 为 输入 ， 这 是 因为 若干 


究 结 均 


KEN IL 


pry 


表明 ， 基 于 中 文字 符 的 摘要 模型 效果 更 佳 (, D1, ERNS 
设 最 大 文本 长 度 和 最 大 摘要 长 度 分 别 为 120 和 25， 
司 典 大 小 为 4000 个 字符 ; 词 向 量 为 350 维 , 潜在 特征 和 隐藏 


的 维度 均 为 500 维 ; 批 大 小 为 256， 束 搜索 范围 
率 损失 参数 4 =1.0。 本 文采 用 AdaDeltall9] 方 法 进行 梯度 下 
训练 模型 参数 ， 其 中 学 习 率 为 0.5。 本 文 在 Pytorch 框架 上 


X10, $8 


? Nb d BENI 


个 epochs, FEITH 8 Ro 


MEAR, LA NVIDIA Tesla 加 速 训练 ， 模 型 


训练 33 


本 文 将 与 以 下 使 用 LSCST 数据 集 的 基准 


从 相关 文献 中 直接 抽取 实验 结果 。 


a) RNN 和 RNN-contextl5; 即 提 出 LSCST 短文 本 摘要 
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b) CopyNet- WI; 


并 使 ) 


文本 的 词 序列 


种 使 
为 输入 。 


J KH Seq2Seq 模型 ， 


$38 € $33 


c) DRGDI9:， 一 种 基于 注意 力 机 制 的 Seq2Seq 模型 ， 并 


在 解码 阶段 添加 VAE 


d) Cover-S01: 


网 络 刻 画 摘 要 文本 的 


文本 摘要 模型 。 


e) PGC'; 种 


潜在 特征 。 


种 基于 注意 力 和 覆盖 率 机 制 的 Seq2Seq 


于 注意 力 、 覆 盖 率 和 指针 生成 网 络 的 


Seq2Seq 摘要 模型 。 


型 未 在 LSCST 数据 集 上 测试 ， 本 文 使 ) 


该 模型 也 是 本 文 的 基准 模型 。 由 于 该 模 


文献 提供 的 代码 


(www.github.com/abisee/pointer-generator) 及 文献 中 设置 的 实验 参数 
在 LSCST 上 训练 模型 。 


3.3 实验 结 


3.3.1 ROUGE evaluation 


本 文 首 先 使 用 Lin APUSE H 


HH ROUGE(recall-oriented 


understudy for gisting evaluation) 指 标 对 比 评估 各 模型 。 该 指 


标 以 生成 的 摘要 在 标 


准 摘 要 中 -元 公共 子 序列 个 数 来 评价 摘 
要 模型 的 优 劣 ， 其 中 R-1 和 R-2 分 别 指 1- 元 和 2- 元 子 序列 ， 
R-L 指 最 长 公共 子 序 列 。 


表 1 对 比分 析 了 各 种 文本 摘要 模型 在 LCSTS 数据 集 上 


的 实验 结果 。 从 表 1 中 可 以 看 


H, RHET 


其 他 基准 模型 和 


VAESum 模型 的 弱化 形式 ， 本 文 提出 的 VAESum 模型 在 


ROUGE 三 个 指标 上 均 有 一 定 程度 的 提升 。 


表 1 ROUGE 评估 结果 对 比 
Tab. 1 ROUGE Results on LSCST 
方法 R-1 R-2 R-L 
RNN 21.5 8.9 18.6 
RNN-context 29.9 17.4 27.2 
CopyNet-W 35.0 223 32.0 
Cover-5 33.58 21.00 31.21 
PGC 34.46 21.09 32.02 
DRGD 36.99 24.15 34.23 
VAESum-Cov! 37.24 24.18 34.26 
VAESum-Copy? 37.45 24.25 34.44 
VAESum 37.74 24.87 34.80 
iE: a)VAESum-Cov 是 指 在 VAESum 模型 的 ACM 子 网 络 中 未 使 
覆盖 率 机 制 来 计算 注意 力 分 布 ; 
b)VAESum-Copy 是 指 在 VAESum 模型 中 未 使 用 指针 生成 网 络 ， 而 
是 根据 式 (13) 直 接生 成 摘要 字符 。 


本 的 写作 风格 信息 。 


此 外 , 在 解码 网 络 


添加 VAE 模块 能 够 有 效 捕获 摘要 文 
因此 ， 相 比 于 仅 使 用 注意 力 机 制 和 拷贝 


机 制 (或 覆盖 率 机 制 ) 的 模型 (如 RNN-context\PGC), 添加 VAE 


乡 


有 较为 显著 的 提升 。 
3.3.2 案例 展示 


结构 的 摘要 模型 (如 DRGD、VAESum) 的 性 能 比 其 基准 模型 均 


为 进一步 直观 评估 VAESum 模型 的 摘要 生成 能 力 ， 表 


2 展示 了 若干 个 摘要 结果 样 例 。 从 表 2 H 
PGC 模型 ， 在 解码 网 络 


文本 的 写作 风格 信息 


最 为 完整 ， 且 表达 了 


此 外 ， 相 比 于 指针 生成 网 络 ， 考 虑 历史 注意 力 


Ph 可 以 看 出 ， 相 比 于 


微 博文 本 的 主要 含义 。 


机 制 对 摘要 生成 质量 
xi SEL CET 


VAESum-Cov) 时 ， 产 生 的 才 


HP 添加 VAE 模块 能 够 有 效 捕获 
， 特 别 是 基于 PGC 网 络 并 添加 
块 的 VAESum 模型 所 生成 的 摘要 句子 句法 结构 和 语义 信息 


的 覆盖 率 


的 影响 更 大 。 当 VAESum 模型 未 使 用 履 


滑 要 往往 只 能 表达 微 


模型 对 比 ， 


数据 集 的 两 个 基于 RNN 的 文本 摘要 模型 。 其 中 RNN-context 


模型 中 使 用 了 注意 力 机 制 。 


博文 本 的 部 分 信息 ， 


较 难 涵盖 全 部 信息 。1 


j 当 未 使 


指针 生 


成 网 络 ( 即 VAESum-Copy) 时 ,产生 的 摘要 基本 表达 了 微 博文 


本 的 全 部 信息 ， 但 常 


的 “中 联 航空 ”只 生成 “中 联 航 ” B 


生成 “广州 ”等 。 


遗漏 专 有 名 词 的 部 分 片段 ， 如 样 例 1 中 
EpL 2 中 “广州 军区 ”只 
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表 2 摘要 结果 样 例 
Tab.2 Examples of the generated summaries 
模型 文本 数据 
微 博文 本 (1) FE 晚 ， 中 联 航 空 成 都 飞 北京 一 架 航 班 被 发 现 有 多 人 吸烟 。 后 因 天 气 原 因 ， 飞 机 备 降 太原 机 场 。 几 名 乘客 在 舱 门 边 吸烟 被 发 现 。 有 乘客 要 
求 重新 安检 ， 机 长 决定 继续 飞行 ， 引 起 机 组 人 员 与 未 吸烟 乘客 冲突 。 目 前 中 联 航 空 正 联系 机 组 进行 核实 。 


参考 摘要 ”成 都 飞 北京 航班 多 人 吸烟 机 组 人 员 与 未 吸烟 乘客 冲突 


E 日 上 午 # 时 ， 广 州 军区 空军 某 部 在 组 织 正常 飞行 训练 时 ， 一 架 歼 # 飞 机 在 起 飞 上 升 过 程 中 突 发 机 械 故 障 ， 飞 机 状态 无 法 控制 ， 坠 落 在 广 


名 一 时 间 送 到 医院 治疗 。 


PGC 中 联 航 空 正 联系 机 组 进行 核实 
VAESum-Cov 中 联 航空 成 都 飞 北京 航班 备 降 太 原 机 场 
VAESum-Copy 中 联 航 成 都 飞 北京 航班 多 人 吸烟 
VAESum ”中 联 航 空 成 都 飞 北京 航班 遭 多 人 吸烟 
MEKEO AMATAK, KERNER. WE ERAS 
参考 摘要 ”一 架 歼 # 飞 机 训练 时 在 汕头 坠毁 
PGC 广州 军区 空军 某 部 正常 飞行 训练 时 突 发 机 械 故 
VAESum-Cov 广州 军区 一 架 歼 飞机 起 飞 突 发 机 械 故 障 
VAESum-Copy 广东 一 架 歼 飞机 突 发 故障 坠落 广东 汕头 飞行 员 
VAESum ”广州 军区 一 架 歼 飞机 起 飞 上 升 过 程 中 突 发 故障 
"n # 月 # 日 ， 全 国 性 地 方 债 审计 全 面 
We 城市 中 ， 债 务 压力 排名 前 # 为 : 南京、 成 都 、 广 州 、 合 肥 、 
参考 摘要 ”媒体 公布 内 地 省 会 中 债务 压力 排名 最 高 城市 名 单 
PGC 全 国 性 地 方 债 审 计 全 面 开 闸 部 分 地 方 政府 
VAESum-Cov 全 国 性 地 方 债 审计 全 面 开 闻 部 分 地 方 举债 
VAESum-Copy 审计 报告 称 省 会 城市 中 债务 压力 排名 前 


曾 。 审 计 的 背后 ， 是 部 分 地 方 政府 盲目 举债 的 隐忧 及 无 力 还 债 的 现实 。 媒 体 披露 审计 的 # 个 
昆明 、 长 沙 、 武 汉 、 哈 尔 滨 、 西 安 和 兰州 。 


标 省 会 


VAESum ”省 会 城市 中 债务 压力 排名 出 炉 
微 博文 本 (4) 王孙 明 候 供 出 的 一 
参考 摘要 ”发 改 委 企业 债 链条 打黑 : 上 百人 名 单 逐 个 排查 
PGC 发 改 委 企业 债 链条 帘 案 或 将 结束 
VAESum-Cov 发 改 委 企业 债 链条 窝 案 或 结束 
VAESum-Copy 券商 固 收 高 管 被 卷 入 债 市 打黑 风暴 
VAESum ”券商 固 收 高 管 被 卷 入 债 市 打黑 风暴 或 将 结束 


立 券商 回收 高 管 被 卷 入 “ 债 市 打黑 ”风暴 。 这 是 继 国信 、 宏 源 等 多 家 券商 固定 收益 部 负责 人 被 调查 之 后 的 最 新 进展 。 随 着 “债券 女 
多 人 名 单 的 逐个 排查 ， 这 一 轮 祸 起 发 改 委 企 业 债 链 条 的 窜 案 或 将 结束 。 


模型 较 难 刻画 带 有 标点 符号 的 写作 风 


中 “#” 指 训练 模型 中 的 停 用 字符 。 
最 后 ， 纵 观测 试 集中 的 全 部 摘要 ， 本 文 提出 的 VAESum 
格 ， 如 样 例 4 所 示 的 


等 符 H 


YY” 风格 。 部 分 原因 是 预 处 理 时 将 “: ”“? ”等 符号 


Af 


字符 ， 从 而 导致 无 法 判断 生成 的 摘要 是 否 需要 添加 


标点 符号 。 例 如 ， 生 成 的 摘要 “券商 固 收 高 管 被 卷 入 债 市 打 


4 X 


暴 或 将 结束 ”或 可 规范 化 为 “券商 固 收 高 管 被 卷 入 “ 债 


e yY 


市 打 


“ 债 市 打黑 


4 


以 提升 自动 摘要 性 能 。 该 方法 在 基于 注意 力 机 制 的 序列 到 序 
列 模型 基础 


Bg 


m 


风暴 ，( 风 暴 ) 或 将 结束 ”或 回收 高 管 被 卷 入 ， 
风暴 或 将 结束 ”。 


Zr Inl 


结束 语 


本 文 提出 一 种 新 的 生成 式 单 文本 自动 摘要 模型 VAESum 


EF， 首 先 采 用 覆盖 率 机 制 进一步 优化 摘要 文本 片 
生成 问题 ; 其次, 引入 VAE 网 络 刻画 摘要 文本 的 风格 


E 并 融入 到 解码 网 络 中 ; 最 后 使 用 指针 生成 网 络 以 缓解 


OOV 问题 。 在 LCSTS 数据 集 上 的 实验 结果 表明 ， 本 文 提出 
的 VAESum 模型 比 基 ? 


方法 的 摘要 生成 能 力 得 到 了 提升 。 
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